Source | # of sentences | Average logarithmic rank |
---|---|---|
American Idol (5. kausi) | 16 | 6.71 |
X Japan | 14 | 6.77 |
Kim Il-Sung | 13 | 6.77 |
Joensuun kaupunginosat | 13 | 6.83 |
Emmerdale (televisiosarja) | 18 | 6.92 |
Metafysiikka (Aristoteles) | 12 | 7.01 |
Tuomas Akvinolainen | 21 | 7.02 |
Baruch Spinoza | 15 | 7.04 |
Kirkko-oppi | 14 | 7.04 |
Jehovan todistajien historia | 11 | 7.04 |
Suomen urheilu | 13 | 7.06 |
Kauniainen | 11 | 7.07 |
Rapa (Ranskan Polynesia) | 12 | 7.08 |
Carl Barks | 18 | 7.09 |
Yellowstonen kansallispuisto | 20 | 7.10 |
Maasait | 11 | 7.11 |
Albert Einstein | 36 | 7.12 |
Filon | 14 | 7.12 |
Origenes | 16 | 7.12 |
Formula 1 | 11 | 7.13 |
Raamatun historiallisuus | 14 | 7.13 |
Pompeji | 17 | 7.14 |
Pori | 20 | 7.14 |
Luettelo Päivien viemää -sarjan henkilöistä | 208 | 7.14 |
Brasilian jalkapallon osavaltiomestaruussarjat | 13 | 7.15 |
Joan Crawford | 21 | 7.16 |
Muinaiskreikka | 11 | 7.16 |
Suomen presidentti | 11 | 7.18 |
Ensimmäinen maailmansota | 15 | 7.18 |
Quincy Wright | 15 | 7.18 |
Source | # of sentences | Average logarithmic rank |
---|---|---|
Sikari | 14 | 8.86 |
Turve | 15 | 8.79 |
Harley-Davidson Motor Company | 24 | 8.67 |
Distributismi | 11 | 8.63 |
Länsi-Bengali | 13 | 8.63 |
Voima (jäänmurtaja) | 12 | 8.51 |
Amfetamiini | 11 | 8.49 |
Absintti | 11 | 8.49 |
Levymuisti | 13 | 8.47 |
Kuivuri | 14 | 8.46 |
ZNKR seitei j?d? | 12 | 8.44 |
Ähtäri | 27 | 8.43 |
Rauni Luoma | 11 | 8.43 |
Final Fantasy VI | 12 | 8.42 |
Bosnian sodan alku | 13 | 8.41 |
Sumopaini | 19 | 8.40 |
Analyyttinen filosofia | 11 | 8.39 |
Olio-ohjelmointi | 11 | 8.39 |
Suomen eläkejärjestelmä | 11 | 8.38 |
Funk | 11 | 8.37 |
Syöpä | 11 | 8.37 |
Eksoplaneetta | 11 | 8.36 |
Suurhyökkäys Syväriltä 1944 | 14 | 8.35 |
Svartholman merilinnoitus | 14 | 8.35 |
Roddy Piper | 14 | 8.34 |
Shakkiavaus | 12 | 8.34 |
Shawneet | 15 | 8.34 |
La fanciulla del West | 14 | 8.32 |
Jääkausi | 13 | 8.32 |
I/37 (talvisota) | 11 | 8.28 |
In this subsection we replace average word length by average logarithmic word rank. The logarithm of the word rank is taken because we want to punish words of high ranks only moderately.
First table:
select source, count(distinct i_s.s_id) as cnt_s, round(avg(log(w.w_id-100)),2) as av from sources so, inv_so i_s, inv_w i, words w where so.so_id=i_s.so_id and i_s.s_id=i.s_id and i.w_id=w.w_id and w.w_id>100 group by source having cnt_s>10 order by av LIMIT 30;
6.4.2.1 Average word length for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words